Day3 | 大數據的處理-2 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 3

0

自我挑戰組

大數據概念系列第 3 篇

Day3 | 大數據的處理-2

2019鐵人賽

團隊四海遊龍

2018-10-13 20:47:12

2002 瀏覽

分享至

昨天已經提及大數據處理的前兩個步驟：數據的收集及數據的儲存與管理，接著要探討接下來的三個步驟

數據的處理分析
分佈式處理方式是大數據處理各環節的通用處理方法。列舉幾個常見的處理分析平台：
(1) Apache Spark：Spark使用記憶體內的運算技術，不同於 Hadoop 的 MapReduce 會在執行完工作後將中介資料存放到磁碟中。且Spark 在記憶體內執行程式的運算速度比 Hadoop的運算速度快上 100 倍，即便是執行程式於硬碟時，Spark 也能快上 10 倍速度。
(2) Hadoop：Hadoop 的兩大主要功能是儲存（Store）及處理（Process）
數據的開放
數據的應用
將數據圖表化，讓人們更能理解圖表的意義，更能加強對數據處理的效率。
Jupyter就是一個數據可是化的一個工具，其透過十多種編譯程式實現大數據分析、數據圖像化的目標。

資料來源：
https://zhuanlan.zhihu.com/p/35893829
https://www.inside.com.tw/2015/03/19/big-data-5-must-have-skills

Day2 | 大數據的處理-1

Day4 | 大數據為什麼用python?

系列文

大數據概念共 30 篇

目錄

RSS系列文訂閱系列文

24 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙